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摘 要 : 在 流 计算 模式 下 进行 三 支 决策 的 快速 计算 研究 是 一 项 具有 挑战 性 的 新 议题 。 针 对 流 计算 模式 中 的 动态 对 象 增 
量 与 减 量 同步 发 生 的 现象 ， 提 出 了 一 种 概率 粗糙 集 三 支 决策 的 快速 流 计 算 方法 。 首 先 讨 论 了 流 计 算 模式 中 决策 信息 系 
统 的 单 对 象 增 减 更 新 模式 的 数据 模式 ， 然 后 基于 流 计 算数 据 变化 模式 分 别提 出 了 数据 增 量 与 数据 减 量 时 三 支 决策 域 的 
变化 推理 ， 最 后 基于 上 述 理论 给 出 了 一 种 流 计算 模式 下 的 三 支 决策 动态 增 减 快速 学 习 算 法 。 通 过 八 种 UCI 数据 集 的 对 
比 实 验 ， 证 明了 该 算法 不 但 在 时 间 消 耗 上 明显 优 于 经 典 三 支 决策 算法 ， 而 且 对 于 三 支 决策 阅 值 具有 较 强 的 稳定 性 。 
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Fast computing of probabilistic rough set three-way decision in stream computing mode 
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Abstract: It is a challenging topic to carry out fast computing for three-way decision in stream computing mode. Aim at the 
phenomenon that the increment and decrement of dynamic objects occur synchronously in the stream computing mode, this 
paper proposed a fast stream computing method for probabilistic rough set three-way decision. Firstly, ytdiscussed the data mode 
of single-object increment and decrement updating mode in stream computing. Then, proposed the reasoning of the three-way 
decision domains in data increment and data decrement dynamic mode respectively based on the pattern of data variation. Finally, 
proposed a three-way decision dynamic incremental and decremental learning algorithm based on the above theory. The 
comparison experiments of eight UCI datasets show that the algorithm not only outperforms the classical three-decision 
algorithm in time consumption, but also has strong stability for the three-way decision thresholds. 


Key words: three-way decision; stream computing mode; dynamic learning; probabilistic rough set 


LinkedIn 等 公司 的 Storm, Kafka, YahooS4 及 诞生 于 伯克利 大 


0 ala 学 AMPLab 的 Spark 平台 等 流 计算 平台 )， 流 计算 模式 的 重要 
加 拿 大 贾 纳 大 学 姚 一 隙 教授 提出 的 三 文 决策 由 是 在 粗 烟 。 性 愈加 凸显 。 

集 的 基础 上 发 展 出 的 一 种 不 确定 性 问题 求解 的 重要 理论 。 近 年 流 计 算 模式 的 主要 动态 特点 可 以 总 结 为 :数据 源 不 经 过 外 

来 ,三 支 决策 理论 在 垃圾 邮件 过 滤 争 、 文 本 情感 申 、 图 像 识 别 外 。” 部 存储 器 缓存 ， 直 接 以 滑动 窗口 的 方式 快速 通过 内 存 ， 而 CPU 

等 应 用 领域 都 取得 了 一 系列 的 研究 成 果 ， 这 些 成 功 的 应 用 实例 ”直接 对 内 存 数据 进行 计算 ， 并 且 实 时 反馈 计算 结果 。 从 内 存 的 

证 明了 三 支 决 策 在 复杂 背景 环境 中 实施 问题 求解 的 重要 价值 。 角度 观察 流 计 算 模 式 , 可 以 发 现 流 计算 模式 的 本 质 是 CPU 在 有 
随 着 大 数据 时 代 国 的 到 来 ， 新 型 的 数据 环境 和 计算 模式 不 限 的 内 存 空 间 内 同时 实施 增 量 学 习 与 减 量 学 习 ( 可 以 看 做 是 负 

断 涌现 ， 例 如 流 计算 模式 就 是 近年 出 现 的 一 种 新 型 动态 计算 形 ” 增 量 学 习 ) 的 计算 任务 加， 如 图 1 所 示 。 

式 。 文 持 流 计算 模式 的 系统 平台 不 断 涌现 和 发 展 ( 如 Twitter. 增 量 学 习 是 指 一 个 学 习 系 统 能 不 断 地 从 来 自 环 境 的 新 样本 
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中 学 习 新 的 知识 ， 并 能 保留 大 部 分 以 前 已 经 学 习 到 的 知识 ， 不 
必 重 新 学 习 全 部 数据 。 降低 了 对 时 间 和 空间 的 需求 ,更 能 适应 实 
际 要 求 。 增 量 学 习 在 粗粮 集 及 三 支 决 策 领 域 已 经 具有 多 年 的 研 
究 历 史 , 当前 的 增 量 学 习 在 各 类 粗粮 集 模型 .上 均 有 相关 的 研 
究 , 其 主要 研究 内 容 涉及 上 下 近似 >}! 趾 、 属性 约 简 0 AA R RA 
则 03. 芍 等 诸多 方面 。 但 是 ， 流 计算 模式 的 这 种 具有 增 量 和 减 量 


同时 实施 的 新 型 动态 学 习 方法 , 尚 需要 进一步 展开 研究 .所 以 ， 
如 何在 新 型 的 流 计 算 模 式 下 实施 快速 三 支 决 策 ， 是 在 新 型 计算 
模式 下 进行 不 确定 问题 求解 的 重要 课题 。 
内 存 计 算 过 程 
图 1 流 计算 模式 示意 图 中 
1 ”概率 粗糙 集 三 支 决策 的 基本 理论 
概率 粗糙 集 是 构造 三 支 决 策 的 基础 原型 8529。 其 模型 基础 ; 
决策 信息 系统 IS AE 个 1] 元 组 、 IS =(U,A,V,f) o 其 中 U 代表 
论 域 中 对 象 x 的 集合 ; A=RUD 代 表 属 性 集合 ， 其 中 R 为 条 件 
属性 集合 , (U /R={R,R…,R,,} 为 R 属 性 确定 的 不 可 区 分 关系 


形成 的 等 价 类 集合 ); D 为 决策 属性 集合 (UVU/D={D,D,…,D,} 


为 DD 属性 确定 的 不 可 区 分 关系 形成 的 等 价 类 集合 );V 代表 A 中 
各 属性 的 取 值 范围 ;f 代表 从 对 象 到 属性 取 值 的 信息 函数 ， 即 
f:UxAV, 

概率 粗糙 集 三 支 决 策 的 相关 定义 为 口 。 

定义 1 等 价 关 系 。 给 定 信息 系统 W LBISTET SE B. W 


足 条 件 3SsA4 ， 则 基于 属性 B 的 某 一 等 价 类 可 以 表示 为 : 
IND(B)={(x,y)eU xU | Va €B, f (x,a) = f (y,a)} 
不 同 的 二 元 关系 下 概率 粗糙 集 具 有 不 同 的 表达 ， 等 价 关 系 
刻画 对 象 之 间 的 关系 。 
定义 2 条 件 概 率 。 给 定 5 ， 基 于 条 件 属性 R 的 任 一 对 象 
集合 R( ReU/R) 对 基于 决策 属性 D 的 任 一 对 象 集合 D; 
(D; EU I D ) 的 条 件 概 率 定 义 如 下 : 


1D NR | 
Pag 
IRR] 
定义 3 三 支 决策 域 。 给 定 一 组 阔 值 w 和 8 ， 其 正 域 、 边 


We 以 分 别 表 示 为 
(Dj) 2(xeU | (x € R) ^ (P(D, |R) 2 a)): 


Sao 


BND,, (Dj) ={x eU | xe R) A (B < FCD, | R)«a)); 


(a.p) 
NEG, p (D,)={x€U | œx € R) A (P(D, | R) < A); 

ik; 0<8<a<l 

正 域 、 边 界 域 和 负 域 对 应 的 三 支 决 策 可 分 别 解释 为 接收 、 

延迟 和 拒绝 ， 表 示 如 下 : 


其 中 
lU / 


2 


2.1 


决策 信息 系统 的 执行 增 量 更 新 和 减 量 更 新 两 个 步骤 的 动态 过 程 。 
1) 决 策 信 息 系统 的 单 对 象 增 量 更 新 模型 
当 一 个 对 象 x 加 入 到 内 存 中 的 信息 系统 中 ， 该 新 增 对 象 记 
为 Xx, 。 该 信息 系统 在 增加 x 后 各 条 件 属性 等 价 类 和 各 决策 属 
性 等 价 类 的 变化 可 由 下 列 公式 更 新 。 
a Irma xeR 1<i<m 
] (x) x eR" i=m+1 
ap IUe x eD,; 1<j<n 
d {x} xeD? j=n+1 


Ch inaX ivó fE} 
徐 健 锋 ， 等 : 有 


DES 


S Accept 


(i =1,2.……, 


m; j =1,2.…,n); 


RAFI 
[ELEM 


(R, > Dj), for R, c POS, (D,), 


DES pe (R; > D,), for R, € BND a 4(D;). 


(i=1,2--,m; j =1,2-+,n); 
DES pe pa (R; > Dj), for R, c NEG, 5 
(i2L2--,m;j-L2--ny 


|U / R|- m 3 R Jt 


,(D,), 


所 确定 的 等 价 关系 商 集 的 基数 。 


DI=n 为 DD 属性 集 所 确定 的 等 价 关 系 商 集 的 基数 。 


流 计算 模式 下 三 支 决策 的 增 
决策 信 


量 与 减 量 学 习 
息 系统 的 单 对 象 增 量 与 减 量 更 新 模型 


流 计算 模式 下 ， 数 据 在 内 存 计算 中 同时 实现 了 数据 的 实时 
流入 和 实时 流出 。 为 了 便于 讨论 ， 可 以 将 流 计算 模式 分 解 为 对 


其 中 上 标 t 表示 初始 时 刻 ， 上 标 t++1 表 示 增 加 新 对 象 后 的 时 刻 。 
上 述 对 象 增 量 将 导致 条 件 属性 等 价 类 R 和 决策 属性 等 价 


XD 


据 变 
持 不 


1 十 1 
R; 
R! 

i 


对 象 
决策 


化 情况 3 和 4， 决策 规则 R” 
变 。 


一 Di 的 条 件 
一 Di 的 决策 域 也 保持 不 变 。 


2) 决 策 信 息 系 统 的 单 对 象 减 量 更 新 模型 


记 为 x 。 该 信息 
属性 等 价 类 的 变化 可 
R“ =R -{x} x eR 
EN =D;-{x} x €D; 


当 一 个 对 象 x 从 内 存 中 的 决策 信息 系统 中 
系统 在 删除 二 后 各 条 件 
下 列 公 式 更 新 。 


es 


六 出 现 以 下 4 种 可 能 的 数据 变化 情况 ; 

情况 1 x eD” ax eR", 

情况 2 x eD' Ax ER", 

情况 3 xeD"AxeR", 

情况 4 x eD Ax eR, 

ik: 其 中 1< jz<n 或 1<j<ntl，1<i<m 或 1<i<m+l。 
性 质 1 决策 信息 系统 的 单 对 象 增 量 更 新 模型 中 列举 的 数 


>D" 所 属 的 三 支 决策 域 保 


证 明 上 述 情况 3 和 4 中 由 于 x eR” 的 情况 下 
概率 POP IR 保持 不 变 ， 


所 以 


删除 后 ， 被 删除 
属性 等 价 类 和 各 


l<i<m 
l<j<n 


其 中 上 标 t 表示 初始 时 刻 ， 上 标 1+1 表 示 删 除 对 象 后 的 时 刻 。 


类 D'" 出 现 以 下 4 种 可 


上 述 对 象 减 量 将 导致 条 件 属性 
能 的 数据 变化 情况 : 


1 1 
x eDi ^x. eR”, 


情况 1 


等 价 类 Ri 和 决策 属性 


等 价 


9^ 
? 
e d 
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据 变 化 情况 3 和 4， 决策 规则 R” 


情况 2 xeD'"AxeR', 
情况 3 
情况 4 
注 : 其 中 1< j<n， 
性 质 2 决策 信息 系统 的 单 对 象 减 量 更 新 模型 中 列举 的 数 
祖 Dm” 所属 三 支 的 决策 域 保 


1 1 
X. eD‘ ^x gR”, 
x eD/" ^X. gR" : 


1xizm. 


持 不 变 。 


2.2 


三 支 决 策 的 单 对 象 增 量 学 习 n 
对 于 一 个 给 定 的 决策 等 价 类 D; , 新 增 一 个 对 象 x, , 其 正 域 、 


负 域 和 边界 域 变 化 如 下 : 


定理 1 ES p, %4 D =D, Ul) JFE R” 
DË R c POS, (Di), WA: 

POS,, (D) = POS,, (D) Utx,) 
b) 若 RS BND,, pD), WA: 
如 果 POIR Da, WA 


=R; U{x,} 时 ， 


POS, D )= POS, a (Di) U R” 
BND,, p (Di) = BND,, p (Di) - R; 


如 果 POS" |R<a, IWA 

BND,, (D) = BND,, p (D) Ulx,) 
cH R & NEG. pD), WA: - 
如 果 POIR) >a, JN 


POS, ,(D7) = POS,, (D) URP" 
NEG,, (D) = NEG. p (Di) - R; 


ing B «PO |R^ «a, WA 


BND,, (Dj) = BND, (D) UR” 
NEG, p (D5") = NEG.. p (D) - R; 


如 果 PO" |RD < B IA 
NEG,, (D; = NEG, p (D) Ulx,) 


(*.5) 
证 明 aps DU =D U fx) 34H R S R'U Gs) 时, 根据 集 
合 的 基本 概念 知 | RC PR |3 EID DD |. 结合 定义 2 可 以 
得 出 PX? | RP)» PD |R). XAD x, 的 条 件 等 价 类 
R c POS, (D^) ,所 以 可 得 到 POD | R) 2a , 综合 上 述 条件 可 
得 出 PCD |R") > POI |R) >a .根据 定义 4 知 x 所 属 的 决策 


XB ERR, HA POS (D, ) 2 POSíSQD)) UG) , übt. 


b)c) 的 证 明 类 似 ， 略 。 
定理 2 ÆI, CA DU =D, } H R" =R! U{x,} it, 


DE R; c POS (D), WA: 

如 果 PO" |R Da, WA 

POS, , (D) = POS,, (D) Utx.) 
iR <P TIR <a, IWA 


BND,, p (D) = BND, (D) U Ri” 
POS,, ,(D5) = POS a (D;)- R; 


如 果 POD |R S B ,那么 
NEG p (D1) = NEG, p (D) U R” 
POS,, (D!) = POS, (D) - R! 


(a.9) 


b) R! c BND, p (D), WA: 


徐 健 锋 ， 等 : 


WR POX"|R 2 B, WA 
BND,, p (D) = BND,, p (D) Ut{x,} 
如 果 POS" IRSA, NA 
NEG, p (D7) = NEG, p (D) U R” 
BND „ p, (Di) = BND,, p (D^) - R; 


c) & R c NEG, (Dj) , WA: 

NEG, p (D) = NEG, p (D) Ulx,) 
定理 2 的 证 明和 定理 1 的 证 明 类 似 ， 略 。 
iE: 定理 1 对 应 2.1 
情况 情况 1， 定 理 2 对 应 


单 对 象 数据 增 量 变化 情况 2。 


节 第 一 小 节 中 的 单 对 象 增 量 数据 变化 


当 j=n+t1l 或 i=m+1 时 , 其 语义 为 增加 了 新 的 决 Hid 介 类 或 
者 条 件 等 价 类 。 所 以 这 种 情况 可 以 预 设 P(D; |R)=0, 然后 运用 
上 述 定理 进行 决策 域 的 变换 即 可 。 

而 由 2.1 节 的 性 质 1 所 述 情况 3 和 4， 由 于 结论 是 决策 规 
则 BR" 一 Dm” 所属 的 三 支 决策 域 保 持 不 变 ， 所 以 可 以 直接 获得 
结论 ， 不 需要 额外 计算 。 

23 三 支 决策 的 单 对 象 减 量 学 习 策略 

对 于 一 个 给 定 的 决策 等 价 类 D; ,删除 一 个 对 象 二 ,其 正 域 、 
负 域 和 边界 域 变 化 如 下 : 

定理 3 在 全 中 , 当 D 2 Di -( 3H R =R; - (x), 

a) 若 R; c POS, S(D)),. WA: 

如 果 POIR Za, WA 

POS,, (D; ) = POS, (Di) - {x} 

AR <P; | R") <a, RA 

-o (D, ) = BND,, p (D) UR" 
POS,, (D) = POS a (D^) - R; 
如 果 POX" | RP) € B, WA 
E p (D, ) = NEG, p (D) UR" 
POS,, (D!) = POS, p (D!) - Ri 
b) R C BND,, (0X) ， 则 有 : 
如 果 POIR D>, WA 
BND,, (D; ) = BND,, p (D) - (x ) 
如 果 PO" IRS, WA 
E = NEG, (D) URP" 
BND,, ,(D'*) = BND,, ,(D') - RI 

o R c NEG. p (D), WE: 

NEG, p (Di) = NEG, p (Di) - {x} 

定理 3 的 证 明和 定理 1 的 证 明 类 似 ， 略 。 

定理 4 EIP, C4 DJ =D, FH R" =R {x}, 

aj R; cPOS,4Q), WA: 


POS,, (Dj) = POS,, (D) -1x ) 
by; R; c BND a 40X) , WA: 
如 果 POUR Da, WA 


pus Uy. POS (DD URP 


BND,, (Dj) = BND (D) - R 


如 果 POIR >S, WA 
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BND,, p (Di) = BND,, p,(D;)—{x} 

coy R c NEG. pD), WE: 

如 果 POUIRS Da, WA 


POS. (D) ) POR, a (Di) U R 
NEG. D; ^) - NEG, (Dj) -R 
如 果 < PD" |R?)«a, WA 
BND,, p (D$) = BND, p (D!) U R” 
NEG, p (Di) = NEG, ,(D;) - R| 


如 果 PO | REB, WA 
NEG, p (Di) = NEG,, (Dj) - {x} 


(p) 
定理 4 的 证 明和 定理 1 的 证 明 类 似 ， 略 。 
注 : 定理 3 对 应 2.1 节 第 二 小 节 中 的 情况 1， 定 理 4 对 应 
2.1 节 第 二 小 节 的 情况 2。 本 节 默 认 1<i<m 且 1< j<n。 


而 由 2.1 节 的 性 质 2 所 述 情况 3 和 情况 4， 由 于 结论 是 决 
OUI R — D7" 所属 的 三 支 决 策 域 保持 不 变 ， 所 以 可 以 直接 
获得 结论 ， 不 需要 额外 计算 。 

3 ” 流 计算 模 式 下 三 支 决 策动 态 增 减 学 习 算 法 


3.1 三 支 决策 动态 增 减 学 习 算 法 
流 计算 模式 下 ， 数 据 在 内 存 计算 中 同时 实现 了 数据 的 在 + 


时 刻 后 的 实时 流入 和 实时 流出 。 借 鉴 时 分 复 用 的 思想 ， 将 流 计 
算 模式 中 的 一 次 流 计算 分 解 t+l1 时刻 和 +2 时 刻 二 个 计算 步 又: 
即 先 在 rel 时 刻 执 行 减 量 学 习 ， 然 后 在 t+2 时 刻 执 行 增 量 学 习 。 
根据 上 述 思 想 提出 以 下 处 理 流 计算 问题 的 三 支 决策 动态 增 减 学 
习 算法 。 

算法 1， 三 支 决策 动态 增 减 学 习 算 法 

算法 输入 : 

t ITZI IS. 各 条 件 等 价 类 UU/R 及 决策 等 价 类 U/D 信息 。 

t 时 刻 每 个 决策 等 价 类 D, 的 三 支 决策 信息 : POS SUD) 


、BND,,p(D;)、NEG.p(D;) REE (œ B), 
1+1 时 刻 减 少 的 对 象 苑 及 t+2 增加 的 对 象 x 。 
算法 输出 : 
t+2 时 刻 IS 各 条 件 等 价 类 U /RR 及 决策 等 价 类 U/D 信 息 。 
1+2 时 刻 每 个 决策 等 价 类 DI? 的 三 支 区 域 POS, (OD?) 、 


BND,, (Dj?) | NEG. p (D 信息 。 

步骤 1: t+1 时 刻 移 除数 据 并 更 新 每 个 DeU/D 的 三 
支 决 策 区 域 。 

步骤 1.1: 判断 被 删除 对 象 区 的 条 件 部 分 属于 ttl 时刻 15 中 
的 哪个 条 件 等 价 类 。 

步 又 1.2: 判断 被 删除 对 象 工 的 决策 部 分 属于 tH 时 刻 IS npe 
的 哪个 决策 等 价 类 。 

步骤 1.3: 对 步骤 2.1 和 步骤 2.2 获得 的 相关 条 件 等 价 类 与 


决策 等 价 类 的 每 个 决策 规则 GEJ RY > DS" ) 执行 如 下 判断 : 

Ca) 如 果 t+1 时 刻 移 除数 据 工 符合 工 6 D Ax eR" 和 
x €D/'" ^x eR, RIEA 2 则 决策 规则 R^ D: 所 属 
的 三 支 决 策 域 保 持 不 变 。 


Chir 


(b》 如 果 1+1 时 刻 移 除数 
则 根据 定理 3 直接 六 
域 。 


Cc) JUR. re LESE ZEE RC X REOR x € D; ^x ER”, ul 


根据 定理 
步 又 

三 支 决 策 区 域 。 
步骤 2.1: 

的 哪个 条 件 等 价 类 。 


4 直接 判断 出 决策 规 页 


2: 1+2 时 刻 添加 数据 x, 并 更 新 每 个 DeU/D 的 


判断 添加 数据 x, 


合作 其 


VE 
YA 末 策 的 


naXiv 
ES 


EM 
快速 i 


据 元 符合 x eD” 人 x eR", 


| 断 出 决策 规则 BR” 一 D)” 所 属 的 三 支 决 策 


| R? >DY 所 属 的 三 支 决 策 域 。 


ll 
L 


的 条 件 部 分 属于 1+2 时 刻 1S 中 


步骤 2.2: 判断 被 添加 数据 x, 的 决策 部 分 属于 1+2 时 刻 IS 


中 的 哪个 决策 等 价 类 。 


步骤 2.3: 对 步骤 2.1 和 步骤 2.2 获得 的 相关 条 件 等 价 类 与 


决策 等 价 类 有 关 的 每 个 决策 规 由 
判断 : 

Ca) ZR t +2 时 刻 添 加 数 ] 
根据 性 质 


x EDP Ax gR”, 
三 支 决 策 域 保持 不 变 。 

(b) 如 果 z+2 时 刻 添加 数 
根据 定理 


Cc) 如 果 1+2 时 刻 添加 数 ] 
根据 定理 


| GEX R? >D}? ) 执行 如 下 


Rx, REA x, e D^ Ax, e RI gi 
2 决策 规则 R > D/7 所 属 的 


ETAPA XX, EDP ^x, eR", 则 


1 直接 判断 出 决策 规则 R^ >D 所 属 的 三 支 决策 


EA x ED ^x eR; ， 则 


2 直接 判断 出 决策 规则 尽 ” 一 Dr” 所属 的 三 支 决策 


三 支 决策 动态 


曾 减 学 习 算 法 可 以 是 先 执行 增 量 学 习 再 执行 


减 量 学 习 , 也 可 以 先 执行 减 量 学 


习 后 执行 增 量 学 习 , 两 者 等 价 。 


本 文采 用 的 是 先 执行 减 量 


步骤 
个 条 件 等 价 类 ， 


步骤 1.3 中 最 好 情况 为 子 步骤 


学 习 再 执行 增 量 学 习 的 策略 ， 其 三 支 
决策 动态 增 减 学 习 算 法 时 间 复 杂 
1.1 和 1.2 主要 确定 x 


度 分 析 如 下 。 
对 象 属于 哪个 决策 等 价 类 和 哪 


计算 频 度 为 mn 。 


Ca) 计算 频 度 为 1。 最 坏 情 


况 为 子 步 又 (b) M Cc), 


RURAL, JW ROBUR S K x [D 


其 主要 步骤 为 条 件 概率 P(D/" 


R) 


1 
b R^ . 


步骤 2.1 和 2.2 主要 确定 并 


个 条 件 等 价 类 ， 


步骤 2.3 中 最 好 情况 为 子 步骤 


MITER CO 和 CO, Jti ROBUR. LXD |x 


ik: K SL WES x. 
价 类 数量 ，|U/R|=m， 


为 便于 分 析 , TAE |D |x 


s X, 相关 的 决策 等 价 类 逢 


对 象 属于 哪个 决策 等 价 类 和 哪 


其 计算 频 度 为 m+n 。 


(a) 计算 频 度 为 1。 最 坏 情 


1+2 
RI. 


I 条件 等 


t+2 t+l 
R, R, 


加 ID - 


， 所 以 三 


支 决策 动态 增 减 学 习 算 法 时 间 复 杂 度 为 : 


O(K4L)x (D; 


x IR )42 x (n n)) 
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3.2 三 支 决策 经 典 非 增 量 学 习 算 法 
为 了 便于 对 比 讨论 ， 本 文 给 出 流 计算 模式 下 三 支 决策 经 典 


非 增 量 学 习 算 法 。 即 数据 在 内 存 计算 1 时 刻 开始 实现 了 数据 实 
时 流入 和 实时 流出 后 +:+1 时 刻 的 三 支 决策 更 新 。 

算法 2， 三 支 决策 经 典 非 增 量 学 习 算 法 

算法 输入 : 

t 时刻 1 与 1+1 时 刻 减少 的 对 象 x 及 增加 的 对 象 Je B 
f& (o B), 

算法 输出 : 

t+ 时 刻 IS 各 条 件 等 价 类 UU/R 及 决策 等 价 类 U /1D 信息。 

tH 时 刻 每 个 决策 等 价 类 D" 的 三 支 区 域 POSQ, S (D). 


BND ap (D) , NEG, p (D) 信息 。 
步骤 1: 计算 ++1 时 刻 15 各 条 件 等 价 类 U/R 及 决策 
类 U/D 信 息 。 
步 又 2: 计算 所 有 条 件 等 价 类 与 


R'! 
o 


步骤 3i: 根据 所 有 条 件 等 价 类 与 决策 等 价 类 之 间 的 条 件 概 
AER B] [ét Cor, B) 进行 匹配 ， 完 成 ++1 时 刻 的 三 支 区 域 划 分 。 

算法 2 的 算法 时 间 复 杂 度 分 析 如 下 。 

步骤 1 计算 各 个 等 价 类 所 需 计算 频 度 为 2|U| 。 

步骤 2 所 有 决策 规则 的 条 件 概 率 所 需 最 坏 情 况 的 计算 频 度 


等 价 


5 决策 等 价 类 之 间 的 条 件 概 


率 P(D, pn 


为 mxnx|D;^ xR. 


步骤 3 REJ mxn . 
注 : [U/R|-m, 
所 以 算法 2 的 时 间 复杂 度 为 ; 


O((m xn)x (p; x|R/? 


«1)«3u]) 


约 等 于 O((mxn)«(|p;" xIR/" 


)-aip) 


与 算法 1 的 时 间 复 杂 度 对 比 : 
3.4 的 分 析 知 算法 1 


的 时 间 复 杂 度 为 


O(K4L) x (D; 1+1 x[R/" 


)+2x(m+n))， 与 算法 2 的 时 间 复 杂 度 


XE EE S A (mx n) 2 (K - L) 3 B. [U| 6n 0) ,所 以 算法 1 的 时 间 
复杂 度 明 显 优 于 算法 2 的 时 间 复 杂 度 。 
上 述 两 个 算法 的 时 间 复 杂 度 分 析 可 知 : 三 支 决 策动 态 增 


ChinaXiv 合 作 其 UM 
徐 健 锋 ， 等 : 流 计算 模式 下 概率 粗糙 集 三 RE 


多 于 经 典 算 法 。 本 文 提 出 的 新 算法 


只 需要 讨论 其 计算 速度 是 否 
的 研究 价值 正 是 在 于 是 否 
决策 的 计算 效率 。 本 章 将 使 用 UCI 上 的 八 个 典型 数据 集 进行 实 
验 来 验证 三 支 决 策动 态 增 减 学 习 算 法 的 有 效 性 ， 以 及 相对 于 经 
岂非 增 量 算 法 在 提取 三 文 决策 规则 上 时 间 花 费 上 的 优势 。 
操作 系统 为 Windows 7， 机 器 配置 为 酷睿 i7-2670QM 处 理 
器 〈 主 频 为 2.2 GHz)， 配 置 的 内 存 为 8 GB， 用 于 实验 的 Python 
版 本 号 为 3.5.2，IDE 为 spyder. 
实验 所 使 用 的 八 个 数据 集 来 自 UCI 
(http://archive.ics.uci.edu/ml/datasets) 。 数 据 集 breast cancer， 


pau 


contraceptive method choice, mammographic mass, monk's 
problems, skin segmentation, thoracic surgery data, Balance Scale 
和 Indian Liver Patient Dataset 的 详细 信息 如 表 1 所 示 。 

由 于 上 述 部 分 数据 集 有 些 是 非 数 值 离散 型 数据 ， 本 文 将 其 
统一 转换 为 等 价 的 数值 离散 型 数据 。 上 述 数据 集中 存在 的 少数 
缺失 数据 的 情况 ， 本 文采 用 了 众 数 填充 的 方法 进行 了 缺失 值 填 
充 处 理 。 对 于 对 连续 型 数据 也 进行 区 间 离 散 化 预 处 理 。 
由 于 流 计算 模式 的 本 质 特 点 是 CPU 在 有 限 的 内 存 空间 内 
同时 实施 增 量 与 减 量 的 计算 任务 。 所 以 本 文通 过 以 下 过 程 来 模 
拟 数据 增 量 和 减 量 动 作 。 将 内 存 中 计算 的 数据 量 设置 为 固定 大 
小 。 然 后 按照 测试 数据 集合 中 各 个 数据 对 象 的 序列 顺序 ， 在 插 
入 新 数据 对 象 的 同时 删除 一 个 内 存 中 序号 最 前 的 数据 对 象 。 


重复 上 述 流 计算 仿真 过 程 直 至 数据 集 计算 结束 。 
表 1 数据 集 信 息 表 
决策 属性 
编号 数据 集 名 称 样本 数量 特征 数量 
取 值 数 

1 breast cancer 699 10 2 

2 contraceptive Method Choice 1473 9 3 

3 mammographic mass 961 6 2 

4 monk's problems 432 7 2 

5 skin segmentation 245057 4 2 

6 thoracic surgery data 470 17 2 

4 Balance Scale 625 4 3 

8 Indian Liver Patient Dataset 583 10 2 
4.1 三 支 决策 动态 增 减 学 习 算法 与 经 典 非 增 量 算法 对 比 实验 


在 本 实验 中 设 定 内 存 中 保存 的 数据 量 为 100 2&, Bull o 与 
B DIREN 0.75 与 0.35。 本 文 将 收集 的 测试 数据 集 以 对 象 序 


减 学 习 算法 的 最 大 的 优势 在 于 不 需要 对 全 部 数据 计算 ， 而 只 是 
需要 对 被 删除 和 新 增 的 相关 决策 规则 数据 进行 处 理 。 显 然 三 支 
决策 动态 增 减 学 习 算法 计算 效率 的 优势 明显 。 


4 ”实验 与 分 析 


上 述 研究 在 理论 上 已 经 证 明了 三 支 决策 动态 增 减 学 习 算法 


号 为 时 间 的 顺序 ， 利 用 滑动 内 存 窗口 更 新 内 存 中 的 数据 。 三 支 
决策 动态 增 减 学 习 算法 及 作为 对 比 的 经 典 三 支 决策 学 习 算 法 ， 
都 以 动态 流 计 算 模式 中 每 次 动态 数据 更 新 后 完成 三 文 决策 规则 
提取 的 消耗 时 间作 为 考察 指标 。 实 验 中 记录 点 为 更 新 数据 的 数 
量 ， 从 0 开始, 每 更 新 30 个 数据 作为 一 个 记录 点 ， 到 300 为 止 
k 10 组 记录 点 。 实 验 做 10 次 取 平均 提取 三 支 决策 规则 的 耗 时 


能 够 获得 经 典 三 支 决策 算法 相同 的 三 支 决 策 规则 ， 所 以 本 实验 
无 须 验 证 本 算法 提取 决策 规则 的 有 效 性 是 否 优 于 经 典 算法 ， 而 


结果 ， 如 图 2 所 示 。 
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图 2 动态 增 减 学 习 算法 与 非 增 量 学 习 算 法 时 间 对 比 


从 图 2 中 可 以 看 出 ， 两 个 算法 的 时 间 花 费 随 着 蔡 换 的 数据 


量 均 呈 现 线性 增长 的 趋势 ， 且 三 支 决策 动态 增 减 学 习 算 法 相对 -— 1 
于 非 增 量 学 习 算 法 的 时 间 花费 有 大 幅度 的 降低 。 N ee 

算法 的 时 间 复杂 度 可 知 ， 随 着 内 存 中 的 数据 更 新 ， 三 支 M" 
决策 经 典 非 增 量 学 习 算法 需要 进行 所 有 数据 等 价 类 的 重新 划分 $ 
及 条 件 概率 的 重新 计算 ， 此 过 程 每 次 执行 时 间 复杂 度 为 Ea 
O((m»n)x(|p"|x|R"]) -2]0]) ， 其 时 间 消 耗 较 大 ， 且 与 内 存 dj E—trt 

(0.6,0.4) (0.70.3) (0.80.2) (09,0.1) (1,0) 

中 的 数据 量 及 等 价 类 的 划分 相关 ， 而 三 支 决 策动 态 增 减 学 习 算 KORR 


图 3 PARE P SCORSA UE 2J SATIS E 9 


法 由 于 只 需要 对 当前 实时 变化 的 数据 对 象 进行 决策 域 的 更 新 ， 
最 多 只 w Wd d 时 间 复杂 m 为 


5 Wi 


O(K4L)x (D; 


x|R"' 


)+2x(m+n))， 节 省 了 更 新 时 间 。 


本 文中 以 概率 粗糙 集 决 策 信 息 系统 模型 为 基础 ， 以 三 支 决 
4.2 不 同 阅 值 下 的 三 支 决策 动态 增 减 学 习 算法 平均 时 间 花 费 策 单 对 象 增 量 、 减 量 的 流 计 算 模式 为 研究 对 象 ， 实 施 了 流 计算 
实验 模式 下 的 三 支 决 策 区 域 变换 决策 的 推理 pis 种 流 计 
为 验证 不 同 阔 值 对 三 支 决 策动 态 增 减 学 习 算法 时 间 效 率 的 算 模 式 下 快速 三 支 决策 的 动态 增 减 学 习 算法 。 通 过 与 经 典 三 支 
S5 W] , (QB) 将 分 别 采 取 如 下 5 组 取 值 una ia a 
1(0.6,0.4),(0.7,0.3),(0.8,0.2),(0.9,0.1,0,0)) 进行 实验 ， 内 存 中 数 。”” 增 减 学 习 算 法 不 但 能 够 获取 的 等 效 的 三 支 决 策 ， 而 且 能 够 流 计 
据 量 与 实验 1 一 致 ， 仍 定 为 100 条 。 实 验 将 计算 更 新 300 条 数 。” 算 模 式 下 极 大 的 提高 计算 的 时 间 效 率 。 
据 下 三 支 决 策动 态 增 减 学 习 算法 的 时 间 花 费 , 每 组 做 10 次 , 取 随 着 流 计 算 平 台 的 发 展 ， 流 计算 模式 在 机 器 学 习 和 大 数据 
实验 结果 的 均值 进行 对 比 ， 以 此 判断 赣 值 对 三 支 决策 动态 增 减 ”分 析 领 域 的 应 用 将 越 来 越 得 到 广泛 重视 。 作 为 不 确定 问题 求解 
学 习 算 法 时 间 复 杂 度 的 影响 。 实 验 结果 如 图 3 所 示 ， 其 中 A-H ”的 重要 理论 ， 流 计算 模式 中 进行 三 支 决 策 理论 研究 不 但 给 流 计 
分 别 为 表 一 中 的 数据 集 1-8。 算 模式 平台 提出 了 一 种 不 确定 问题 快速 求解 的 新 方法 ， 而 且 丰 
根据 3.2 小 节 的 时 间 复 杂 度 分 析 可 知 ， 时 间 复 杂 度 和 内 存 。 富 了 三 支 决 策 的 理论 体系 。 
lcu ee i NAM MD ipa 可 以 看 出 ， 参考 文献 ; 
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